Yūrei moji

Un yūrei moji (幽霊文字, ''yūrei moji''^? «caracter fantasma») se refiere a la serie de sinogramas japoneses (kanji) desconocidos que forman parte de la codificación de caracteres JIS X 0208.^[1]^[2] Estos caracteres comenzaron a surgir a partir de la década de 1970, debido a una mala digitalización de otros caracteres existentes en documentos escritos.^[2] También son conocidos como yūrei kanji (幽霊漢字, ''yūrei kanji''^? «kanji fantasma»)^[1] o yūrei-ji (幽霊字, ''yūrei-ji''^?).

Surgimiento

En 1978, el Ministerio de Economía, Comercio e Industrias de Japón estableció el estándar JIS C 6226 (luego renombrado a JIS X 0208) de tipos de letra para computadora, como una preparación ante la digitalización de los kanji.^[2] Un total de 6349 caracteres fueron establecidos como kanji de primer y segundo nivel. Estos kanji se denominan colectivamente como «kanji básico JIS».

Los expertos tomaron alrededor de ocho años en escoger los caracteres, con datos extraídos esencialmente de cuatro referencias:^[2]^[3]

Kanji para el código estándar (tentativo): por la Sociedad de Procesamiento de Información de Japón (Jōhō Shori Gakkai, 1971)
Kanji de administración nacional de distritos: por el Centro de Datos Geográficos de Japón (Kokudo Chiri Kyōka, 1970)
Kanji de registro de nombres: por Nippon Life (Nihon Seimei Shūyō Jinmei Kanji, 1973, actualmente no existe)
Kanji básico para el procesamiento de información administrativa: por la antigua Agencia de Gestión Administrativa (Gyōsei Kanrichō, 1975)

Una vez que se estableció la codificación de caracteres como estándar, fue revisado posteriormente en 1983, 1990 y 1997. Sin embargo, en 1979 el erudito Kazuo Tajima reveló que había encontrado en el estándar unos 63 caracteres de origen desconocido que no aparecían en el Kadokawa Shinjigen (un gran diccionario de kanji) ni en el Dai Kan-Wa Jiten de Tetsuji Morohashi (considerado el diccionario más completo sobre kanji en Japón), ni tampoco eran caracteres shinjitai (caracteres creados en la posguerra), kokuji (caracteres de origen japonés) o ryakuji (caracteres abreviados a mano), por lo que estos caracteres estaban sin lectura, significado e historia alguna.

Si bien estos caracteres fantasma se convirtieron en tema de conversación para los eruditos, para la revisión de 1997 fue considerado como un problema, por lo que un equipo de investigadores liderados por Kōji Shibano investigó la causa de su aparición.^[1]^[2] Según la investigación, muchos de los caracteres fantasma provenían de las listas de administración nacional de distritos y del registro de nombres. En el caso del registro de nombres, no contaba con un texto original para su creación, por lo que fue sustituido por bases de datos de las guías telefónicas de la NTT como referencia más sólida. Con la investigación, se redujo a sólo 12 caracteres fantasma que no pueden ser explicados mediante referencias.

Por ejemplo, el carácter 妛 no se encuentra en el Diccionario de Kangxi, considerado obra cumbre entre los diccionarios de caracteres chinos, y los técnicos del JIS no pudieron encontrar sitio alguno en Japón con dicho carácter, hasta que observaron una cierta similitud con el carácter 𡚴 usado en Akenbara (𡚴原, Akenbara^?), una antigua localidad en el distrito de Inukami, prefectura de Shiga.^[2] En este caso se descubrió que los lugareños no imprimían directamente el kanji, sino que usaban recortes con los caracteres 山 (montaña) y 女 (mujer) uno sobre el otro y lo fotocopiaban, por lo que en el proceso de digitalización muy posiblemente se tomó un mal recorte de ambos que derivó en una sombra que creó el trazo horizontal adicional y generó un nuevo carácter.^[2]^[4]

Mientras que el caso de 彁 fue documentado como «completamente único entre los caracteres codificados en estos estándares, y sin ninguna forma de identificación», ya que no existe referencia a ella antes de 1976.^[1]^[2]^[5]

A pesar del descubrimiento, estos caracteres todavía pueden ser agregados en los procesadores de texto vía Unicode.^[2] La razón es que el JIS X 0208 fue reformado por primera vez en 1983, cuando se agregaron más de 300 kanjis con formas simplificadas o intercambiadas a pedido del Ministerio de Educación de Japón, pero los yūrei moji se mantuvieron inalterables.^[2] No obstante, la poca funcionalidad técnica de las computadoras en la década de 1980, dichas revisiones causaron algunos problemas con la codificación Unicode en computadoras chinas y coreanas. Así que cuando se concluyó la investigación en 1997, el comité del JIS determinó que lo mejor era que los yūrei moji mantuvieran su posición original y registrar la forma correcta con un nuevo valor Unicode.^[2]

Lista de yūrei moji

Esta es la lista de caracteres fantasma según la codificación JIS X 0208:1997.

Kanji	Kuten	Referencia
墸	52-55	Fuente desconocida.
壥	52-63	Fuente desconocida. Posible error de 㕓.
妛	54-12	Kanji de administración nacional de distritos (pero no se puede encontrar). Posible error de 𡚴.
彁	55-27	Sin resultados de análisis de correspondencia (referencia desconocida). Posible error de 彊, 謌 u otros.
挧	57-43	Kanji de administración nacional de distritos (pero no se puede encontrar). Posible error de 栩.
暃	58-83	Kanji de administración nacional de distritos (pero no se puede encontrar). Posible error de 杲.
椦	59-91	Kanji de administración nacional de distritos (pero no se puede encontrar). Posible error de 橳.
槞	60-57	Kanji de administración nacional de distritos (pero no se puede encontrar). Posible error de 橦.
蟐	74-12	Kanji básico para el procesamiento de información administrativa (tabla de códigos de kanji de la Meiji Yasuda Life), pero sin aplicación alguna.
袮	74-57	Kanji de administración nacional de distritos (pero no se puede encontrar). Posible error de 祢.
閠	79-64	Kanji de administración nacional de distritos (pero no se puede encontrar). Posible error de 閏.
駲	81-50	Kanji de registro de nombres, pero sin aparecer en el documento original.

Antiguos yūrei moji

Estos caracteres fueron catalogados por Tajima en 1979 como yūrei moji, pero en 1997 se pudo descubrir su referencia. Esta lista está basada en la codificación JIS X 0208:1997.

Kanji	Kuten	Referencia y ejemplo de uso
垈	52-18	Kanji de administración nacional de distritos. 藤垈 (Fujinuta), 相垈 (Ainuta), 大垈 (Onta); localidades de la prefectura de Yamanashi.
垉	52-21	Kanji de administración nacional de distritos. 垉六 (Hōroku); localidad de la prefectura de Aichi.
岾	54-19	Kanji de administración nacional de distritos, pero no existe en la actualidad. 広岾町 (Hiroyama-chō) → 広帖町 (Kōchō-chō); localidad de la prefectura de Kioto.
恷	55-78	Kanji de registro de nombres. Sustituido por la base de datos telefónica de la NTT.
橸	60-81	Hay un ejemplo en el diccionario Nihon Chimei Daijiten. 石橸 (Ishidaru); localidad de la prefectura de Shizuoka.
汢	61-73	Kanji de administración nacional de distritos, pero con una errata en el texto original. 汢の川 → の川 (Nutanokawa); localidad de la prefectura de Kōchi.
碵	66-83	Kanji de registro de nombres. Sustituido por la base de datos telefónica de la NTT.
穃	67-46	Kanji de administración nacional de distritos, pero con un error tipográfico. 穃原 → 榕原 (Yōbaru); localidad de la prefectura de Okinawa.
粐	68-68	Kanji de administración nacional de distritos. 粐蒔沢 (Nukamakizawa); localidad de la prefectura de Akita.
粭	68-70	Kanji de administración nacional de distritos. 粭島 (Sukumojima); localidad de la prefectura de Yamaguchi.
粫	68-72	Kanji de administración nacional de distritos, pero con un error tipográfico. 粫田 (Uruchida) → 糯田 (Mochida); localidad de la prefectura de Fukushima.
糘	68-84	Kanji de administración nacional de distritos. 糘尻 (Sukumojiri); localidad de la prefectura de Hiroshima.
膤	71-19	Kanji de administración nacional de distritos. 膤割 (Yukiwari); localidad de la prefectura de Kumamoto.
軅	77-32	Kanji de administración nacional de distritos, pero no existe en la actualidad. 軅飛 (Takatobu) → 鷹飛 (Takatobi); localidad de la prefectura de Fukushima.
鍄	78-93	Kanji de administración nacional de distritos. 小鍄 (Kogasugai); localidad de la prefectura de Yamagata.
鵈	82-94	Kanji de administración nacional de distritos, pero con un error tipográfico. 鵈沢 → 鵃沢 (Misagosawa); localidad de la prefectura de Fukushima.

Notas

↑ ^a ^b ^c ^d Ken Lunde (2009). CJKV Information Processing (en inglés). O'Reilly Media, Inc. p. 178. ISBN 0596514476.
↑ ^a ^b ^c ^d ^e ^f ^g ^h ⁱ ^j ^k Paul Dargan (29 de octubre de 2018). ‘Ghost kanji’ lurk in the Japanese lexicon (en inglés). The Japan Times. Consultado el 2 de noviembre de 2018.
↑ JIS X 0208:1997 (1997). 7ビット及び8ビットの2バイト情報交換用符号化漢字集合 (7 Bitto Oyobi 8 Bitto no 2 Baito Jōhō Kōkanyō Fugōka Kanji Shūgō) (en japonés). Japanese Standards Association. p. 269f.
↑ JIS X 0208:1997 (1997). 7ビット及び8ビットの2バイト情報交換用符号化漢字集合 (7 Bitto Oyobi 8 Bitto no 2 Baito Jōhō Kōkanyō Fugōka Kanji Shūgō) (en japonés). Japanese Standards Association. p. 289-292.
↑ Naokazu Hiruma (22 de agosto de 2011). «幽霊文字の読み、どこから ― 変換辞書のはなし５ (Yūrei moji no Yomi, Doko kara - Henkan Jisho no Hanashi 5)» (en japonés). Asahi Shimbun. Consultado el 2 de noviembre de 2018.

Referencias

Kazuo Tajima (Enero de 1979). 漢字表の利用上の問題: 漢字処理システムにおける漢字のデザインと管理 (Problemas concernientes al uso de la lista de kanji JIS: diseño y manejo de kanji en sistemas de procesamiento de kanji) (en japonés) 21 (10). Diario de la Sociedad de Procesamiento de Información de Japón. pp. 753-761.

Datos: Q3497103

[CJKV-1] Ken Lunde (2009). CJKV Information Processing (en inglés). O'Reilly Media, Inc. p. 178. ISBN 0596514476.

[JT-2] ↑ ^a ^b ^c ^d ^e ^f ^g ^h ⁱ ^j ^k Paul Dargan (29 de octubre de 2018). ‘Ghost kanji’ lurk in the Japanese lexicon (en inglés). The Japan Times. Consultado el 2 de noviembre de 2018.

[3] JIS X 0208:1997 (1997). 7ビット及び8ビットの2バイト情報交換用符号化漢字集合 (7 Bitto Oyobi 8 Bitto no 2 Baito Jōhō Kōkanyō Fugōka Kanji Shūgō) (en japonés). Japanese Standards Association. p. 269f.

[4] JIS X 0208:1997 (1997). 7ビット及び8ビットの2バイト情報交換用符号化漢字集合 (7 Bitto Oyobi 8 Bitto no 2 Baito Jōhō Kōkanyō Fugōka Kanji Shūgō) (en japonés). Japanese Standards Association. p. 289-292.

[5] Naokazu Hiruma (22 de agosto de 2011). «幽霊文字の読み、どこから ― 変換辞書のはなし５ (Yūrei moji no Yomi, Doko kara - Henkan Jisho no Hanashi 5)» (en japonés). Asahi Shimbun. Consultado el 2 de noviembre de 2018.

[1]

[2]

[3]

[4]

[5]